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移动 互联 网 用 户 终端 换 机 预测 的 研究 与 实现 
符 ” 静 ， 张 治 中 ， 陈 粤 龙 


(重庆 邮电 大 学 通信 网 与 测试 技术 重点 实验 室 , 重庆 400065) 


摘 要 : 为 解决 预测 潜在 换 机 用 户 的 低 效率 与 实际 应 用 问题 ， 设 计 并 搭建 基于 大 数据 平台 的 换 机 预测 系统 。 该 系统 首 
先 采 集 通信 网 络 各 接口 的 数据 并 收集 外 部 数据 ; 再 通过 解析 处 理 平台 对 网 络 接 口 数据 进行 分 发 、 解 码 、 合 成 、 关 联 等 
处 理 ， 对 外 部 数据 进行 ETL 处 理 ， 然 后 将 处 理 后 的 数据 存 入 HDFS 中 ; 进一步 ， 在 大 数据 平台 上 应 用 Spark 组 件 建立 
基于 逻辑 回归 的 换 机 预测 模型 ， 输 出 潜在 换 机 用 户 ; 最 后 ， 选 取 了 某 西 部 城市 部 分 用 户 数据 进行 系统 测试 ， 所 得 结果 
表明 ， 该 换 机 预测 系统 的 预测 准确 率 为 71%， 可 以 较 好 地 识别 出 潜在 换 机 用 户 ， 为 运营 商 及 手机 制造 商 的 精准 营销 提 
供 可 靠 支撑 。 
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Research and implementation of users terminal replacement prediction in mobile internet 


~ Fu Jing, Zhang Zhizhong, Chen Yuelong 
(Communication Networks Testing Engineering Research Center, Chongqing University of Posts & Telecommunications, 


Chongqing 400065, China) 


Abstract: In order to solve the low efficiency and practical application of predicting the potential phone replacement user, this 


paper designed and built a phone replacement prediction system based on big data platform. This system firstly captured 


signaling data from multiple network interface and collected external data. Through the parse platform, the data from network 


interface would be distributed, decoded, synthesized and correlated, and the external data would be processed by ETL tools, and 
then storing processed data into HDFS. Further, the paper established a phone replacement prediction model, which based on 
logistic regression, using spark components in the big data platform and output the potential phone replacement users. Finally, 
the paper chose part of the western city’s user data for system testing. The result shows that the prediction accuracy of the phone 
replacement prediction System is up to 71%. It can preferably recognize potential phone replacement users, and provide reliable 
support for the precise marketing of operators and mobile phone manufacturers. 
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0 引言 以 此 挖掘 出 潜在 换 机 用 户 , 这 不 仅 有 利于 运营 商 扩大 用 户 市 场 ， 
增加 经 济 效益 ， 还 有 利于 用 户 获 得 更 好 的 体验 。 

移动 互联 网 用 户 在 使 用 手机 的 过 程 中 产生 大 量 的 信息 ， 运 ] 户 终端 换 机 预测 是 针对 运营 商 数据 以 及 用 户 上 网 数据 、 
营 商 积累 了 这 些 用 户 的 相关 信息 ,如 手机 机 龄 .流量 使 用 情况 、 网 络 接口 采集 数据 等 各 类 数据 ， 通 过 数据 挖掘 方法 进行 分 析 ， 
异常 开关 机 次 数 等 ， 但 在 海量 信息 中 ， 运 营 商 和 用 户 都 很 难 及 ”寻找 数据 间 的 隐藏 关系 ， 从 大 量 终端 用 户 中 识别 出 有 换 机 趋势 
时 交互 双方 所 需要 的 信息 。 对 于 运营 商 而 言 ， 无 法 知道 哪些 | 的 用 户 ， 便 于 向 潜在 换 机 用 户 进行 精准 营销 。 现 有 的 换 机 预测 
户 有 潜在 的 换 机 需求 .需求 的 手机 类 型 及 可 接受 的 价位 等 信息 ， ”研究 较 少 , 刘 力 凯 , 王国 负 , 邓 维 斌 四 利用 基于 优势 关系 粗糙 集 
从 而 做 针对 性 的 销售 ， 即 精准 化 营销 (3。 对 于 用 户 而 言 ,虽然 。 方法 对 有 换 机 意向 的 用 户 进行 分 类 选择 ， 刘 畅 外 基于 Cox 回归 
市 场 上 手机 种 类 繁多 ， 但 是 不 知道 有 哪些 手机 更 适合 自己 ,而 ”模型 研究 发 现 影响 终端 换 机 的 因素 ， 其 结果 表明 影响 用 户 换 机 
且 性 价 比 更 高 。 运 营 商 与 手机 用 户 之 间 缺 乏 有 效 沟 通 ， 因 此 运行 为 的 因素 包括 年 龄 、 性 别 、 终 端 品牌 等 ， 熊 冰 妍 ， 王 国 筷 ， 
营 商 有 必要 对 用 户 业 务 和 流量 等 信息 进行 全 面 系统 的 研究 分 析 ，“” 邓 维 斌 名 对 决策 树 算 法 进行 改进 ， 并 提出 了 一 种 基于 分 级 式 决 
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的 “翻译 ”。 


解码 系统 相 


层 依 次 向 上 


录用 稿 
策 树 的 换 机 预测 方法 ，Yang 等 人 处 从 手机 用 户 使 用 APP 的 数 
据 入 手 ， 应 用 生存 分 析 模 型 预测 用 户 是 否 换 机 。 

现 有 换 机 预测 研究 多 是 从 理论 算法 上 进行 的 ， 且 其 模型 分 
析 的 数据 仅 来 源 于 运营 商 ， 而 本 文 提 出 了 基于 Hadoop 平台 的 
换 机 预测 系统 ， 在 Spark 组 件 上 应 用 逻辑 回归 算法 建立 换 机 预 
测 模 型 ,挖掘 潜在 换 机 用 户 。 此 外 ， 换 机 预测 模型 的 数据 源 不 仅 


有 运营 商 的 


1 ” 换 机 预测 系统 设计 


为 了 


数据 ， 还 包括 从 2/3/4G 各 网 络 接口 采集 的 数据 。 


能 够 更 好 的 解决 用 


户 需 求 并 拓展 运营 商业 务 ， 本 文 设 


计 并 搭建 J 
包括 数据 采 


基于 Hadoop 平台 的 换 机 


基于 Hadoop 平台 的 换届 


集 、 数 据 处 理 、 数 据 挖掘 、 


预测 系统 框架 如 图 


上 
A 


1 所 示 。 


几 预测 系统 。 换 机 预测 系统 
展示 等 功能 模块 。 


数据 解码 


i 程 。 


静 ， 等 : 


空 , 如 果 不 为 空 ， 


以 S1-U 接口 
对 于 S1-U 接口 数据 ， 


才 进 行 解码 ; 
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f 
的 


后 ， 调 
数据 的 解码 为 
判断 数 
再 识别 协议 栈 的 最 底 


期 刊 


开 究 与 实现 


R 据 接口 协议 栈 进行 解码 ， 协 议 栈 解 码 都 是 从 底 
层 进行 的 ， 识 别 协 议 栈 的 每 层 协议 
码 函数 进行 解码 。 下 面 
首先 ， 


相应 的 
网 ， 说 明 
是 否 闪 


层 协议 (UIP 


协议 ) ， 调 用 相应 解码 函数 〈IP_decode0) 进行 解码 ，IP 解码 


函数 如 下 。 


int Ipv4_FDecode(IN const void * pData, IN const int32 


nBitLen, IN void * pContext, IN void * pDetail, OU 


** ppSduInfo) 
{ 


uint8 * pDataHead = (uint8 *)pData; 


int32 nLength = nBitLen; 


T SDUINFO 


应 用 展示 |[ ” 损 机 预测 | | 行为 分 析 精准 营销 
| 甩 沙 MV 4 ~ cb 于 中 孙 F 是. 不 三 | 
TEST 在 底层 数据 (IP 协议 数据 ) 解码 完成 后 判断 是 否 存 在 上 层 
数据 (UDP 协议 数据 ) ， 如 果 存 在 ， 再 根据 上 层 协 议 调 用 相应 的 
数据 挖掘 | 用户 终端 信息 通信 行为 信息 解码 EB 函数 (UDP _decode()) 进行 解码 ， 依次 循环 直至 解 完 原始 
j 户 消费 信息 数据 仓库 网 络 行为 信息 数据 ; 再 调 用 FillTreeBuf 函数 ， 构建 树 型 结构 ， 填充 解码 结果 。 
i Te … 1.1.2 合成 CDR 
Hadoop 平 台 
CDR 合成 模块 主要 是 对 数据 解码 后 的 结果 进行 合成 , 并 在 
数据 处 理 ETL 处 理 解析 处 理 平台 内 存 中 记录 CDR 和 原始 消息 的 对 应 关系 ,其 具体 流程 如 图 3 所 
(Boss ][CRM ]| 经 分 (Gb | Gn Iups| sl J Un | 0 
数据 采集 OSS 经 n | Lups u 六 引 自由 担 上 、 圭 自 ， 甘 次 业 
小 外 部 开拓 信和 令吉 所 首先 从 解码 结果 消息 中 提取 共有 关键 信息 Key; 其 次 ， 判 
人 断 Key 对 应 的 CDR 记录 是 否 存在 ， 如 果 存 在 ， 就 从 hash 表 中 
图 1 换 机 预测 系统 框架 放 和 
获取 key 对 应 的 CDR， 并 更 新 CDR 属性 信息 ; 如 果 不 存在 ， 
1.1 数据 采集 处 理 就 建立 hash 索引 和 新 的 CDR 记录 , 并 设置 CDR 属性 信息 。 然 
换 机 预测 的 原始 数据 通过 数据 采集 层 获取 ， 主 要 包括 外 部 。 后 , 判断 当前 消息 是 否 为 CDR 结束 消息 ， 如 果 不 是 , 后 续 消息 
数据 与 信 令 数据 两 部 分 。 外 部 数据 包括 Boss 系统 、CRM 系统 ”将 完善 CDR 内 容 ; 如 果 是 ， 则 移 除 Key 并 把 完整 的 CDR 传送 
以 及 经 分 系统 的 数据 ， 主 要 通过 ETL 进行 处 理 , 将 外 部 数据 加 到 出 表 模 块 。 
载 到 Hadoop 数据 仓库 中 去 。 信 令 数 据 由 采集 卡 等 设备 实时 采 
集 获得 ， 包 括 Gb、Gn、Iups、S1、Uu 等 网 络 接口 的 数据 ， 再 始 
通过 解析 处 理 平台 对 其 进行 处 理 ， 处 理 后 所 得 数据 传送 到 0 
Hadoop 平台 。 解 析 处 理 平台 包括 数据 分 发 解码 、 合 成 CDR、 
DPI 识别 、 关 联 出 表 四 个 模块 ， 其 流程 如 图 2 所 示 。 
是 v 
到 > 去 下 | 华人 再 妆 拉 [区 画 从 hash 表 中 获取 建立 hash 索 引 并 
， 站 和 名 CDR 信 全 胡 提醒 ed pe 对 应 CDR I 
和 而 Le[_ DPI 天 | 个 更 新 CDR 忆 性 信息 | | 设置 CDR 属 性 信息 
爬虫 信息 
图 2 解析 处 理 平台 
1.1.1 数据 分 发 解码 
该 模块 主要 完成 对 所 采集 网 络 接 口 数据 的 解码 功能 。 首 先 
识别 数据 类 型 ， 判 断 数 据 是 信 令 面 还 是 业务 面 的 数据 ， 再 根据 
数据 类 型 的 不 同 分 发 到 相应 的 解码 系统 ， 最 后 通过 解码 系统 对 
网 图 3 CDR 合成 处 理 流程 
网 络 接口 数据 进行 解码 ， 包 括 关 键 字段 的 提取 与 详细 比特 内 容 
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1.1.3 DPI 识别 与 关联 出 表 

DPI 识别 模块 主要 是 识别 用 户 访问 互联 网 的 数据 ， 包 括 业 
务 类 型 ， 如 视频 、 购 物 、 阅 读 等 具体 内 容 ， 此 模块 需要 怜 虫 信 
息 库 的 支持 ， 扑 忠信 息 库 中 存储 息 虫 程序 息 取 的 一 些 信息 ， 主 
要 是 各 网 站 的 业务 关键 信息 ， 如 视频 名 称 、 主 演 等 信息 。 

该 模块 的 输入 是 CDR 合成 文件 数据 ， 首 先 需 要 加 载 怜 虫 
信息 库 ， 并 读 取 CDR 合成 文件 ， 再 根据 IP 五 元 组 信息 ， 即 源 
卫 地 址 , 源 端口 , 目的 人 地 址 ， 目 的 端口 和 协议 类 型 来 查找 业 
务 类 型 ， 依 次 通过 疏 虫 信息 库 、Host、URL 与 其 他 特征 来 识别 
业务 ， 成 功 则 填充 识别 统计 表 ， 失 败 则 结束 ， 关 键 代码 如 下 。 


switch(m arr Level[i]) 


{ 

case DPI LEVEL IP: 

{ 

if(false == m Check Stat[DPI LEVEL IPl].Is Ok()) 

{ Search Ch Feature(dpi Info,Result 
Info ,context ,DPIText,FEATURE LEVELS IP); 

}} 

default: break; 

}} 


关联 出 表 主 要 是 为 了 补充 并 完善 CDR 记录 ， 对 合成 后 的 
业务 面 CDR 记录 中 的 空缺 信息 ， 通 过 信 令 面 的 相互 关联 信息 
进行 交叉 回填 ， 回 填 后 将 完整 的 CDR 合成 结果 以 CSV 文件 格 
式 存盘 ， 实 时 保存 CDR 的 合成 记录 ， 便 于 上 层 使 用 。 
1.2 ”数据 挖掘 与 应 用 展示 

数据 挖掘 模块 是 在 Hadoop 平台 上 完成 数据 导入 、 统 计 、 
分 析 、 预 测 等 功能 ， 其 核心 是 建立 相应 的 数据 挖掘 模型 。 应 用 
展示 模块 的 主要 功能 是 对 大 数据 平台 处 理 的 数据 结果 进行 展示 ， 


I 


根据 专题 的 不 同 ， 分 为 用 户 换 机 预测 、 用 户 行为 分 析 和 用 户 套 
餐 推荐 等 
数据 挖 气 包 括 数据 准备 .数据 预 处 理 与 数据 建 模 三 个 阶段 
其 具体 设计 如 图 4 所 示 。 
数据 准备 数据 预 处 理 数据 建 模 
数据 导入 字段 提取 模型 选择 
相关 性 分 析 || _ 外 | 模型 构建 
数据 标准 化 模型 输出 
图 4 数据 挖掘 过 程 
数据 准备 阶段 包括 数据 导入 、 宽 表 建立 等 工作 。 对 于 解析 


处 理 平台 与 ETL 处 理 所 得 到 的 各 类 数据 ， 导 入 到 Hadoop 平台 
的 HDFS 中 ，HDFS 是 分 布 式 文件 系统 中 ， 专 用 于 存储 各 类 文 
件 。 导 入 的 数据 是 涵盖 通信 行为 信息 、 网 络 行为 信息 、 用 户 基 
本 属性 和 用 户 消费 信息 等 不 同 维度 的 数据 。 然 后 建立 boss、 信 
令 等 数据 基础 宽 表 。 


a 
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数据 预 处 理 是 对 基础 宽 表 数据 进行 处 理 ， 
提取 特征 字段 ， 并 对 字段 进行 两 两 相关 性 分 析 ， 


根据 专家 经 验 法 
去 除 相 关 性 较 


大 的 字段 ， 形 成 模型 的 输入 字段 ， 进 一 步 ， 对 数据 进行 数据 质 
量 检 查 、 变 量 转 换 等 标准 化 处 理 ， 得 到 输入 模型 的 数据 宽 表 。 


数据 建 模 主要 分 为 模型 选择 、 模 型 建立 与 模型 输出 三 阶段 。 
一 阶段 ， 根 据 业务 目标 选择 合适 的 数据 挖掘 模型 ， 业 务 目 标 
是 实现 换 机 预测 系统 ， 因 此 换 机 预测 模型 选择 为 逻辑 回归 预测 
模型 。 第 二 阶段 ， 通 过 数据 挖掘 算法 进行 建 模 ， 本 文 基于 spark 
组 件 建立 逻辑 回归 模型 ,对 数据 进行 换 机 预测 挖掘 。 第 三 阶段 ， 
输出 换 机 预测 模型 结果 ， 即 输出 潜在 换 机 用 户 。 


可 


As 


2 换 机 预测 模型 


换 机 预测 模型 主要 是 采用 逻辑 开 
算法 -1 在 spark 组 件 上 建立 模型 。 逻 辑 回 归 是 通过 N 个 影响 
因素 预测 变量 发 生 的 概率 ， 多 用 于 二 分 类 情况 。 本 文 需要 预测 
的 是 客户 是 否 为 潜在 换 机 用 户 ， 是 典型 的 二 分 类 变量 (1 表示 
于 逻辑 回归 算法 建立 换 机 预测 模型 。 


We 


日 〈Logistic Regression ) 


是 ，0 表示 否 ) ， 因 此 看 
逻辑 回归 算法 
逻辑 回归 的 思想 也 是 基于 线性 

型 9。 线性 回归 的 公式 如 () 所 示 。 

z=PB, +Ba++pB,x,=B'x (1) 
sigmoid 函数 公式 如 式 (2) 所 示 。 


Ma 
山 


习 ， 属 于 广义 线性 回归 模 


oO=- O) 
l+e™ 


逻辑 回归 是 将 线性 函数 的 结果 映射 到 了 sigmoid 函数 中 ， 
如 式 (3) 所 示 。 


1 


h(x)=——— = 
5 l+e® Jl]+eP”* 


G3) 


在 换 机 预测 应 用 中 ， 假 设 给 定 n 个 因素 x=(x1,x2,…,xn)， 
设 条 件 概 率 P=P(y=1|x) 为 换 机 事件 y 相 对 于 因素 x 发 生 的 概率 ， 
函数 表示 为 


] Logistic 项 


Se 


(4) 


根据 式 (4)， 可 建立 换 机 预测 模型 。 其 中 ，P 表示 用 户 换 机 
的 概率 ，xl、x2、…… 、xn 表示 换 机 的 影响 因素 如 手机 品牌 ， 


上 网 天 数 ， 平 均 流 量 等 。 
2.1 逻辑 回归 模型 工作 流程 

逻辑 回归 模型 工作 流程 主要 包括 模型 
阶段 ， 具 体 流 程 如 下 

1) 模型 训练 流程 

a) 对 选取 的 训练 数据 集 进行 数据 预 处 理 ， 包 括 对 数据 样本 
的 去 噪 、 剔 重 和 筛选 。 
b) 通 过 相关 性 分 析 得 到 对 模型 预测 结果 影响 显著 的 变量 ， 
将 其 作为 模型 最 终 的 输入 变量 。 


+ 训练 与 模型 预测 两 个 
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9 训练 数据 集 利 用 逮 辑 回归 的 fit0 方 法 生成 逻辑 回归 模型 。 


2) 模 型 预测 流 
a) 针 对 测试 数 ] 


集 进 


时 


[uy 


响 显著 的 变量 输入 模型 ， 


行 数据 预 处 理 ， 并 选取 对 预测 结果 影 


该 模型 为 经 过 训练 数据 集 所 生成 的 逻 


辑 回归 模型 。 


b) 调 用 训练 后 的 逻辑 


结果 。 


3 ” 换 机 预测 的 实现 与 应 用 


换 机 预测 系统 是 基于 


Hadoop 平台 实现 的 ， 其 数据 预 处 理 


可 归 模 型 的 transform() 方 法 对 测试 数 
据 进 行 分 析 ， 输 出 潜在 换 机 用 户 。 
co) 输 出 并 保存 预测 


过 程 包括 数据 字段 提取 , 标准 化 处 理 等 , 主要 是 在 Hive 上 完成 ， 


TH 


而 换 机 预测 模型 的 建立 、 预 测 等 工作 主要 是 在 Spark 组 件 上 完 


成 。 


3.1 数据 准备 阶段 
原始 数据 集 O 包括 外 部 数据 和 信 令 数据 , 涵盖 通信 行为 信 


信 令 等 数 和 


宽 表 。 


符 ” 况 ， 


全 


3.2 ”数据 预 处 理 阶 段 
3.2.1 特征 字段 提取 


原始 数据 级 
联 较 小 ， 因 此 需要 对 宽 表 数 
换 机 产生 影响 的 变 
表 中 筛选 出 17 个 相关 特征 
手机 品牌 (phone brand) 、 
均 流 量 (flow_avg3) 、 


3.2.2 相关 性 分 析 


借助 了 spass statistics 工 


采 


ye 


筷 、 网 络 行为 信息 、 
言 息 、boss、 经 分 信 ， 
了 原始 数据 集 O 的 字段 信 


户 终端 信息 、 用 户 属 性 信息 、 用 户 消 


表 1 原始 数据 集 字段 信息 


费 


和 等 多 维度 数据 ， 共 146 字段 。 表 1 展示 
息 , 由 于 字段 较 多 , 只 选取 部 分 展示 。 


所 示 o 


从 表 2 中 可 以 看 
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也 是 换 机 预测 模型 的 数据 源 。 在 系统 实现 过 程 中 , 需要 建立 boss、 
昌 宽 表 ， 存 储 于 HDFS 中 ， 作 为 模型 输入 的 数据 基础 


发 O 所 含 字段 较 多 , 其 中 有 些 字段 与 换 机 预测 关 


居 进 行 特征 字段 提取 ， 留 下 可 能 对 


量 字 段 。 根 据 经 验 法 ， 从 BOSS、 信 令 等 宽 


4g 流量 


F 变 量 


字段 , 包括 手机 号 Cusr_nbr) 、 


当月 流量 (gprs flux) 、 三 个 月 平 
(Cflow 4g) 等 字段 。 


相关 性 分 析 即 对 提取 字段 进行 两 两 间 的 相关 性 分 析 ， 本 文 


和 对 


所 有 字段 做 双 变量 相关 性 分 析 ， 


用 pearson 相关 系数 算法 ， 所 得 相关 性 分 析 结 果 部 分 如 表 2 


上 ，gprs_flux 与 low_avg3 字段 的 相关 系 


数 为 0.819，gprs flux 与 flow 4g 字段 相关 性 系数 为 0.963， 
flow_4g 与 flow_avg3 字段 的 相关 系数 为 0.863， 相 关 性 较 大 ， 


当 两 字段 相关 系数 大 于 0.8 时 ,选取 其 中 一 个 作为 模型 的 输入 ， 


因此 模型 输入 字段 去 掉 gprs_flux 与 flow_avg3 字段 。 


] 户 终端 信息 TO 0 3.2.3 数据 标准 化 处 理 
终端 网 络 类 型 
当月 消费 温 游 通话 费 数据 标准 化 处 理 先 把 非 数值 型 数据 进行 转换 ， 再 对 数据 进 
有 户 消费 信息 最 近 三 个 月 平均 消费 .2 行 归 一 化 处 理 。 本 文 对 于 模型 各 输入 字段 处 理 方法 不 同 ， 如 对 
细 7 ， 将 城区 下 yy 1， 也 好 
ER 
Bi Sp 字段 ， 取 值 范 习 为 0 至 20， 即 苹果 、 欧 珀 、 步 
网 络 行为 信息 a oe We 金立 、 诺 基 亚 等 手机 终端 品 
上 网 营 加 套餐 a 、 ne 
0 牌 从 20 至 1 依次 递减 排序 ， 当 字段 内 容 不 属于 top20 的 品牌 ， 
或 手机 品牌 字段 为 空 时 都 转换 为 0。 
表 1 可 知 ， 原 始 数据 集 O 涵盖 了 不 同 维度 的 字段 信息 
表 2 部 分 相关 性 分 析 结 果 
相关 性 分 析 usr nbr phone brand gprs flux flow avg3 flow 2g flow 3g flow 4g 
usr_nbr 1 0.327 0.197 0.028 0.108 0.282 0.239 
phone_brand 0.327 1 0.206 -0.018 0.253 0.095 0.086 
gprs_ flux 0.197 0.206 1 0.819 0.157 0.036 0.963 
flow avg3 0.028 -0.018 0.819 1 0.568 0.264 0.863 
flow 2g 0.108 0.253 0.157 0.568 1 0.237 0.197 
flow 3g 0.282 0.095 0.036 0.264 0.237 1 0.149 
flow 4g 0.239 0.086 0.963 0.863 0.197 0.149 1 
innet months 0.182 0.156 0.065 0.238 0.234 0.438 0.451 
数据 归 一 化 处 理 是 为 了 消除 指 不 同 量 纲 间 对 数据 分 析 结 果 (nvl(a.innet_ months,0)-b.avg_innet months) 


的 影响 ， 其 处 理 方法 
在 网 月 数 (innet months ) 与 市 场 细 分 (segment type) 为 例 ， 


为 : 


归 一 化 处 理 的 代码 丸 


下: 


新 数据 =( 原 数据 -均值 ) /标准 差 。 


以 


/b.stddev_innet months innet months, 


(nvl(a.segment type,0)-b.avg_segment type) 


/b.stddev_segment type segment type ， 


录用 稿 


3.3 ”数据 建 模 实现 
数据 建 模 是 在 Hadoop 平台 spark 组 件 上 实现 的 , 其 主要 建 
模 实现 步骤 如 下 : 
al 加 载 训 练 数据 traindata ， 其 路 径 为 
“user/test/train201706.csv”， 并 设置 分 割 符 以 及 划分 属性 列 和 标 


bn 


op 
炭 
Hn 
运 


对 象 val lr = new LogisticRegression()。 

c) 重新 设置 逻辑 回归 对 象 参 数 
lr.setMaxIter(10).setRegParam(0.01)， 最 大 迭代 次 数 10， 正 则 化 
参数 0.01 。 

d) 训 练 模型 。 根 据 设 定 的 模型 参数 , 调用 逻辑 


| 


归 的 fit0 方 


法 拟 合 训练 得 到 模型 model2， 可 以 通过 模型 model2 预测 用 户 
是 否 换 机 。 
e) 加 载 测 试 数据 testdata ， 其 路 径 为 


“user/test/unchanges201707.csv” 并 设置 分 割 符 以 及 划分 属性 列 
和 标识 列 。 
人 调用 预测 模型 model2 的 transform() 方 法 ， 对 测试 数据 
testdata 进行 换 机 预测 。 
多 测试 数据 testdata 通过 预测 模型 后 得 到 预测 结果 , 输出 保 
存 至 res.csv 文件 中 。 
模型 实现 的 关键 代码 如 下 : 


val traindata = sc.textFile("/user/test/train201706.csv") 


5 


val training = sqlContext.createDataFrame(......).toDF ("label", 
"features") 

val lr = new LogisticRegression() 

lr.set MaxIter(10).setRegParam(0.01) 

val model2 = Ir.fit(training, param MapCombined) 

val testdata=sc.textFile("/user/test/unchanges201707.csv") 


val res=model2 .transform(test).select("isdn","features", 


1 1 


"myProbability", "prediction") 


i 


res.save(path="/user/test/res",source="json") 
3.4 结果 分 析 
在 换 机 预测 模型 完成 之 后 ,本 文选 取 了 某 西部 城市 2017 年 
7 月 部 分 用 户 数据 进行 系统 测试 , 测试 对 象 为 200000 名 未 换 机 
用 户 ， 将 该 数据 导入 换 机 预测 系统 后 得 到 结果 如 表 3 所 示 ， 其 
中 ，“134****4763” 是 用 户 号 码 ，“b” 代 表 预 测 用 户 是 潜在 换 机 
，“a” 代 表 预 测 用 户 为 非 潜在 换 机 用 户 。 

表 3 换 机 预测 模型 结果 

134****4763 Cb 


上 | 


134****6829 bb 
134****0019 3 


通过 换 机 预测 模型 后 ， 得 到 预测 结果 ， 进 一 步 ， 利 用 大 数 


上 ,~V， 人 人 大 甘 日 工 || 
ChinaXiv 合 作 期 刊 
符 ” 静 ， 等 : 移动 互联 网 用 户 终端 换 机 预测 的 研究 与 实现 


据 平 台 统 计 潜 在 换 机 用 户 人 数 ， 关 键 代 码 如 下 : 

---14002 

select count(a.usr nbr) from cyhcmc temp.hj jychange test 
a,hj change 201707b 

where a.usr_nbr = b.usr nbr and a.flag= 'b'; 

---19720 

select count(a.usr_nbr) from cyhcmc temp.hj jychange testa 

where a.flag = 'b'; 

从 统计 结果 可 以 看 出 , 待 测试 200000 名 用 户 中 , 预测 所 得 
潜在 换 机 用 户 数 为 19720， 其 中 有 14002 用 户 是 与 实际 相 匹 配 
的 ， 实 际 上 7 月 份 换 机 用 户 数 为 18216， 预 测 准确 率 为 
14002/19720=71%。 系统 测 试 中 , 从 开始 数据 处 理 到 最 终 模 型 完 
成 预测 共 花 费时 间 约 5.3s。 现 有 换 机 预测 研究 准确 率 多 为 68%- 
74% 左 右 ， 本 文 实现 的 换 机 预测 系统 准确 率 与 现 有 研究 相当 ， 
但 相 比 于 传统 仿真 或 理论 研究 的 实现 方式 ， 该 换 机 预测 系统 性 
能 有 和 较 高 的 提升 ， 可 及 时 预测 出 潜在 换 机 用 户 。 该 西部 城市 运 
营 商 针对 该 换 机 预测 系统 测 预测 的 潜在 用 户 , 进行 了 精准 营销 ， 
成 功 营销 人 数 达 5248, 成 功 营销 率 为 5248/19457=27.0%, 相 比 
于 该 西部 城市 运营 商 之 前 随机 抽取 用 户 4%~5% 的 营销 成 功率 
有 了 更 大 的 提升 。 
运营 商 实际 成 功 营销 数据 表明 ， 该 换 机 预测 系统 可 以 预 
测 出 潜在 的 换 机 用 户 ， 运 营 商 仅仅 对 潜在 换 机 用 户 吨 
销 ， 从 人 力 投入 方面 降低 了 营销 成 本 ， 并 且 最 终 提高 手机 终端 
的 营销 成 功率 。 此 外 ， 该 换 机 预测 系统 还 可 以 掌握 用 
的 行为 习惯 、 换 机 前 后 的 消费 变化 ,结合 用 户 消 
为 后 续 其 他 业务 (如 套餐 推荐 ) 提供 参考 。 


到 而 
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本 文 从 理论 与 实际 结合 的 角度 研究 换 机 预测 ， 并 应 用 
Hadoop 平台 上 的 Spark 组 件 实现 了 换 机 预测 系统 , 能 较 好 的 识 
别 出 潜 在 的 换 机 用 户 。 但 换 机 预测 模型 仍然 存在 一 些 问 题 ， 伪 
如 选取 特征 字段 的 方法 是 借助 专家 经 验 法 ， 可 能 会 忽略 一 些 影 
响 换 机 预测 的 其 他 字段 ， 模 型 的 预测 结果 与 实际 结果 仍 存在 一 

户 是 否 换 机 会 受到 一 些 偶 然 因素 的 影响 。 在 
接 下 来 的 研究 中 ， 会 尝试 用 聚 类 算法 选取 相关 特征 字段 ， 进 
步 提 高 换 机 预测 模型 的 准确 率 。 
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